Recherche d'information dans un corpus bruité (OCR)

نویسندگان

  • Nada Naji
  • Jacques Savoy
  • Ljiljana Dolamic
چکیده

This paper evaluates the retrieval effectiveness degradation when facing with noisy text corpus. With the use of a test-collection having the clean text, another version with around 5% error rate in recognition and a third with 20% error rate, we have evaluated six IR models based on three text representations (bag-of-words, n-grams, trunc-n) as well as three stemmers. Using the mean reciprocal rank as performance measure, we show that the average retrieval effectiveness degradation is around -17% when dealing with an error rate of 5%. This average decrease is around -46% when facing with an error rate of 20%. The representation by 4-grams tends to offer the best retrieval when searching with noisy text. Finally, we are not able to obtain clear conclusion about the impact of different stemming strategies or the use of blind-query expansion. MOTS-CLÉS : Recherche d'information dans des documents bruités (OCR), évaluation, TREC.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Utilisation des ressources externes pour la reformulation des requêtes dans un système de recherche d'information

Dans un Système de Recherche d’Information (SRI), les démarches pour la reformulation de la requête sont nombreuses. Elles peuvent être classées selon les ressources utilisées en trois grandes approches : l’utilisation des ressources externes, l’analyse globale et l’analyse locale. Dans ce contexte et dans le cadre des SRI pour les textes Arabes, nous nous intéressons à l’évaluation des perform...

متن کامل

Expansion de requêtes pour la recherche d'information multilingue

1. Recherche d'information multilingue : approche par traduction des contenus La quantité d'information en ligne croît très rapidement, ainsi que le nombre de langues dans lesquelles ces contenus sont disponibles. En revanche, la complexité des requêtes reste limitée (2 à 3 mots en moyenne). Des traitements spécifiques s'avèrent donc nécessaires pour préciser le sens de certaines requêtes, ou a...

متن کامل

Modèle de recherche contextuelle orientée contenu pour un corpus de documents XML

RÉSUMÉ. Dans le cadre de corpus de documents XML, la recherche par mots-clés reste le moyen le plus utilisé pour un utilisateur dont le besoin d'information est vague, ou encore parce qu'il ne connaît pas précisément la structure des documents. Dans cet article nous présentons notre approche de recherche de nœuds pertinents à une requête orientée contenu "Content Only" composée de simples mots ...

متن کامل

Ontologies pour l'aide à l'exploration d'une collection de documents

Dans cet article nous présentons un système à base d'ontologies pour l'aide à une activité de recherche, d'analyse et d'exploration de corpus documentaires relatifs à un domaine scientifique. Les ontologies utilisées visent à représenter un domaine à la fois à travers le vocabulaire de ce domaine, mais également au travers de l'ensemble des méta-données qui peuvent être utiles dans des activité...

متن کامل

ScienQuest: a Treebank Exploitation Tool for non NLP-Specialists

The exploitation of syntactically analysed corpora (or treebanks) by non NLP­specialist is not a trivial problem. If the NLP community wants to make publicly available corpora with complex annotations, it is imperative to develop simple interfaces capable of handling advanced queries. In this paper, we present query methods developed during the Scientext project and intended for the general pub...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2011